Introduzione alla Visione Artificiale e al Processamento delle Immagini Digitali
Visione Artificiale è il campo dell'intelligenza artificiale che consente ai computer di ottenere informazioni significative da immagini e video digitali, cercando efficacemente di colmare il divario semantico tra i dati grezzi dei pixel e la comprensione a livello umano.Processamento delle Immagini Digitali funge da strato fondamentale per la Visione Artificiale, concentrandosi sulla manipolazione e l'ottimizzazione dei segnali delle immagini attraverso trasformazioni punto per punto per preparare i dati per compiti interpretativi di livello superiore.
Principi Fondamentali
- Rappresentazione dei Dati: A livello macchina, un'immagine è una tensore numerica piuttosto che un'immagine complessiva. Le immagini in scala di grigi sono matrici 2D di valori di intensità, mentre le immagini a colori sono tensori 3D che rappresentano i canali Rosso, Verde e Blu (RGB) con dimensioni $H \times W \times 3$.
- Trasformazione vs. Interpretazione: Il Processamento delle Immagini Digitali si occupa principalmente di operazioni immagine-immagine come riduzione del rumore, accentuazione o equalizzazione dell'istogramma. La Visione Artificiale si concentra su operazioni immagine-conoscenza come classificazione degli oggetti, localizzazione e segmentazione.
- Il Paradigma della Grafica Inversa: La Visione Artificiale può essere vista come l'inverso della Grafica Computerizzata. Mentre la grafica cerca di generare un mondo visivo da modelli matematici, la visione cerca di recuperare strutture 3D e etichette semantiche da proiezioni 2D.
La Sfida Fondamentale
La sfida principale di questo campo è il Divario Semantico, ovvero la separazione tra i valori a basso livello dei pixel elaborati dalle macchine e i concetti a alto livello percepiti dagli esseri umani.
Implementazione in Python
Domanda 1
Quale processo è categorizzato come un'operazione immagine-conoscenza?
Domanda 2
A livello macchina, quale è la struttura dei dati di un'immagine a colori standard?
Studio di Caso: Sistema di Diagnosi Medica
Leggi lo scenario qui sotto e rispondi alle domande.
Un ospedale sta sviluppando un nuovo sistema automatico di diagnosi medica progettato per analizzare scansioni a raggi X per eventuali fratture ossee. Il sistema elabora i dati grezzi provenienti dalla macchina a raggi X e produce un rapporto diagnostico per il radiologo.
Q
1. Se il sistema applica un miglioramento del contrasto per rendere più chiare le strutture ossee, si tratta di Processamento delle Immagini Digitali (DIP) o di Visione Artificiale (CV)?
Risposta:
Processamento delle Immagini Digitali. L'aumento del contrasto è una trasformazione immagine-immagine che migliora la qualità visiva del segnale senza estrarre significato semantico.
Processamento delle Immagini Digitali. L'aumento del contrasto è una trasformazione immagine-immagine che migliora la qualità visiva del segnale senza estrarre significato semantico.
Q
2. Se il sistema evidenzia automaticamente una zona specifica come potenziale frattura, quale compito sta eseguendo?
Risposta:
Visione Artificiale / Rilevamento di Oggetti. Il sistema sta interpretando il contenuto dell'immagine per estrarre conoscenza di alto livello (individuare una frattura).
Visione Artificiale / Rilevamento di Oggetti. Il sistema sta interpretando il contenuto dell'immagine per estrarre conoscenza di alto livello (individuare una frattura).
Q
3. Perché è necessaria la riduzione del rumore prima di eseguire un algoritmo di rilevamento?
Risposta:
Per migliorare la qualità del segnale e ridurre i falsi positivi nella fase di interpretazione semantica. Il rumore può essere erroneamente interpretato dagli algoritmi di Visione Artificiale come caratteristiche reali o bordi.
Per migliorare la qualità del segnale e ridurre i falsi positivi nella fase di interpretazione semantica. Il rumore può essere erroneamente interpretato dagli algoritmi di Visione Artificiale come caratteristiche reali o bordi.